Gemini 3.0のベンチマーク結果分析|GPT-5
公式情報源
Gemini 3 Pro - Google DeepMind https://deepmind.google/models/gemini/pro/
PDF https://storage.googleapis.com/deepmind-media/gemini/gemini_3_pro_model_evaluation.pdf
https://scrapbox.io/files/691db5a10ac27490fe98da8a.png
ーーーーーーーーーーーーーーーーー
以降,GPT-5で作成(情報未検証)
1. 学術・科学推論(Academic / Scientific Reasoning)
Humanity’s Last Exam(No tools)
内容:複数の学術領域(数学・物理・化学・生命科学・人文社会など)を対象にした試験形式の推論テスト。
カバー範囲:汎用学術知識+推論能力(ツール無し条件)。
Humanity’s Last Exam(With search & code execution)
内容:上記同様だが、「検索+コード実行」を許可した条件。
カバー範囲:学術知識+ツール活用能力。
GPQA Diamond
内容:博士レベルの科学知識を問う Q&A 形式ベンチマーク。
カバー範囲:高度な科学知識+精度。
AIME 2025(No tools)
内容:難関数学コンテスト形式(American Invitational Mathematics Examination)をツール無しで実施。
カバー範囲:純粋数学的推論・計算能力。
AIME 2025(With code execution)
内容:上記数学問題に対し「コード実行可」条件でテスト。
カバー範囲:数学+実行可能計算/プログラム能力。
MathArena Apex
内容:さらにチャレンジングな数学コンテスト問題群。
カバー範囲:最上級の数学推論・難易度。
SimpleQA Verified
内容:モデルが内部に蓄えている知識(パラメトリック知識)を問う QA。
カバー範囲:知識記憶/再生能力。
スコア比較表(代表ベンチマーク)
table:table
ベンチマーク Gemini 3 Pro GPT-5.1 Claude Sonnet 4.5
Humanity’s Last Exam (No tools) 37.5 % 26.5 % 13.7 %
GPQA Diamond 91.9 % 88.1 % 83.4 %
AIME 2025 (No tools) 95.0 % 94.0 % 87.0 %
SimpleQA Verified 72.1 % 34.9 % 29.3 %
2. 視覚・マルチモーダル推論(Vision / Multimodal Reasoning)
ARC-AGI-2
内容:視覚的パズル(抽象図形・図解)を解くタスク。
カバー範囲:画像+推論能力(抽象視覚パズル)。
CharXiv Reasoning
内容:複雑なチャート・グラフから情報を読み取り、統合・推論するタスク。
カバー範囲:データ可視化理解+推論。
MMMU-Pro
内容:マルチモーダル(テキスト+画像)統合理解&推論。
カバー範囲:異なるモダリティ統合能力。
OmniDocBench 1.5
内容:ドキュメントの OCR(文字認識)精度+編集距離による評価。
カバー範囲:文書画像→テキスト変換+編集/理解。
ScreenSpot-Pro
内容:UI/スクリーンキャプチャを理解し操作・判断できる能力。
カバー範囲:画面/UI理解+指示遂行。
スコア比較表(代表ベンチマーク)
table:table
ベンチマーク Gemini 3 Pro GPT-5.1 Claude Sonnet 4.5
ARC-AGI-2 31.1 % 17.6 % 13.6 %
CharXiv Reasoning 81.4 % 69.5 % 68.5 %
MMMU-Pro 81.0 % 76.0 % 68.0 %
OmniDocBench 1.5 (Edit Distance) 0.115 (低いほど良い) 0.147 0.145
ScreenSpot-Pro 72.7 % 3.5 % 42.8 %
3. 動画理解(Video Understanding)
Video-MMMU
内容:動画から知識を取得/理解し、問いに答える能力。
カバー範囲:時間的コンテキスト+映像理解+知識抽出。
スコア比較表
table:table
ベンチマーク Gemini 3 Pro GPT-5.1 Claude Sonnet 4.5
Video-MMMU 87.6 % 80.4 % 77.8 %
4. エージェント能力(Agent / Tool Use / Coding / Planning)
ツール使用系
τ2-bench
内容:エージェントとしてツール(検索・コード実行など)を使ってタスクを遂行する能力。
カバー範囲:ツール選択・操作・統合的遂行力。
コーディング系
LiveCodeBench Pro
内容:競技プログラミング形式(問題解決・アルゴリズム・実装)をモデルがこなす。
カバー範囲:プログラミング能力・アルゴリズム実行。
Terminal-Bench 2.0
内容:端末(シェル/ターミナル)操作を伴ったタスクをモデルが実行。
カバー範囲:実行環境操作・コード実行・エージェント的動作。
SWE-Bench Verified
内容:ソフトウェアエンジニアリングタスク(既存コードベースの理解・バグ修正・実装)を実施。
カバー範囲:開発実務スキル・コード設計・修正能力。
長期計画系
Vending-Bench 2
内容:自動販売機の仮想ビジネス運営タスク(長期間の戦略/利益追求)
カバー範囲:マルチステップ計画・長期意思決定・戦略的業務。
スコア比較表(代表ベンチマーク)
table:table
ベンチマーク Gemini 3 Pro GPT-5.1 Claude Sonnet 4.5
LiveCodeBench Pro (Elo) 2,439 2,243 1,418
Terminal-Bench 2.0 54.2 % 47.6 % 42.8 %
SWE-Bench Verified 76.2 % 76.3 % 77.2 %
τ2-bench 85.4 % 80.2 % 84.7 %
Vending-Bench 2 US$ 5,478.16 US$ 1,473.43 US$ 3,838.74
5. 多言語・文化知識(Multilingual / Cultural Reasoning)
MMMLU
内容:多言語での質問応答タスク。
カバー範囲:多言語知識・理解・推論。
Global PIQA
内容:100以上の言語・文化を跨った常識推論タスク。
カバー範囲:文化横断常識・多言語常識推論。
スコア比較表
table:table
ベンチマーク Gemini 3 Pro GPT-5.1 Claude Sonnet 4.5
MMMLU 91.8 % 91.0 % 89.1 %
Global PIQA 93.4 % 90.9 % 90.1 %
6. 長文コンテキスト処理(Long-context Reasoning)
MRCR v2 (8-needle)
内容:非常に長い文脈(例:128k トークン平均、1M トークン point-wise)を保持・理解・推論する能力。
カバー範囲:超長文文書理解/大規模文脈内での検索・統合・推論。
スコア比較表
table:table
ベンチマーク Gemini 3 Pro GPT-5.1 Claude Sonnet 4.5
MRCR v2 (128k average) 77.0 % 61.6 % 47.1 %
MRCR v2 (1M point-wise) 26.3 % — —
7. 総合ベンチマーク(Integrated / Comprehensive Suite)
FACTS Benchmark Suite
内容:モデルのパラメトリック知識/検索取得/マルチモーダル理解などを横断的に評価するスイート。
カバー範囲:知識・検索・マルチモーダル・地に足のついた情報統合能力。
スコア比較表
table:table
ベンチマーク Gemini 3 Pro GPT-5.1 Claude Sonnet 4.5
FACTS Benchmark Suite 70.5 % 50.8 % 50.4 %
情報源
1: https://deepmind.google/models/gemini/pro/?utm_source=chatgpt.com "Gemini 3 Pro - Google DeepMind"
2: https://www.vellum.ai/blog/google-gemini-3-benchmarks?utm_source=chatgpt.com "Google Gemini 3 Benchmarks"
3: https://medium.com/%40leucopsis/gemini-3-pro-first-reviews-527120cebe84?utm_source=chatgpt.com "Gemini 3 Pro: First Reviews"
4: https://www.cursor-ide.com/blog/gpt-51-vs-claude-45?utm_source=chatgpt.com "GPT-5/5.1 vs Claude Sonnet 4.5 - Cursor IDE"